我们考虑一个人口,分成一套社区,并研究通过顺序,随机抽样在人口中识别人群中最大的社区的问题。有多个采样域,也称为\ emph {boxes},该域也会分区群体。每个盒子都可以包括不同社区的个人,每个社区可能又可以跨多个盒子传播。学习代理可以随时使用(用替换)来自任何所选框的随机单独的单个;完成此操作后,代理学会了采样的个人所属的社区,以及此个人是否已被采样。代理的目标是通过优化采样策略以及决策规则来最大限度地减少错误识别最大社区的概率。我们提出并分析了这个问题的新算法,并且还在任何算法下建立了误差概率的信息理论下限。在几个兴趣的情况下,我们算法下误差概率的指数衰减率显示为最佳到恒定因素。所提出的算法通过实际数据集的模拟进一步验证。
translated by 谷歌翻译
We present Mu$^{2}$SLAM, a multilingual sequence-to-sequence model pre-trained jointly on unlabeled speech, unlabeled text and supervised data spanning Automatic Speech Recognition (ASR), Automatic Speech Translation (AST) and Machine Translation (MT), in over 100 languages. By leveraging a quantized representation of speech as a target, Mu$^{2}$SLAM trains the speech-text models with a sequence-to-sequence masked denoising objective similar to T5 on the decoder and a masked language modeling (MLM) objective on the encoder, for both unlabeled speech and text, while utilizing the supervised tasks to improve cross-lingual and cross-modal representation alignment within the model. On CoVoST AST, Mu$^{2}$SLAM establishes a new state-of-the-art for models trained on public datasets, improving on xx-en translation over the previous best by 1.9 BLEU points and on en-xx translation by 1.1 BLEU points. On Voxpopuli ASR, our model matches the performance of an mSLAM model fine-tuned with an RNN-T decoder, despite using a relatively weaker sequence-to-sequence architecture. On text understanding tasks, our model improves by more than 6\% over mSLAM on XNLI, getting closer to the performance of mT5 models of comparable capacity on XNLI and TydiQA, paving the way towards a single model for all speech and text understanding tasks.
translated by 谷歌翻译
我们介绍了NLP社区Metasurvey的结果。从2022年5月到2022年6月,该调查引起了关于有争议的问题的意见,包括该领域的行业影响,对AGI和道德规范的关注。我们的结果将具体数字置于几个争议中:例如,受访者几乎完全将有关人工通用智能的重要性的问题分为一半,语言模型是否理解语言以及语言结构的必要性以及解决NLP问题的必要性。此外,调查提出了元问题,要求受访者预测调查响应的分布。这不仅使我们不仅可以深入了解NLP研究人员所拥有的各种信念,还可以揭示社区预测与现实不符的错误社会学信念。我们在各种问题上发现这种不匹配。除其他结果外,社区大大高估了其对基准的实用性的信念,以及扩展解决现实世界中问题的潜力,同时低估了其对语言结构,归纳偏见和跨学科科学重要性的信念。
translated by 谷歌翻译
在本文中,我们分享了我们努力建立能够翻译一千多种语言的实用机器翻译(MT)系统的发现。我们在三个研究领域中描述了结果:(i)通过利用半监督预训练的语言识别和开发数据驱动的过滤技术来构建1500多种语言的清洁,网挖数据集; (ii)通过利用大规模的多语言模型来开发用于服务不足的语言的实用MT模型,该模型训练了有监督的并行数据,以使用100多种高资源语言和单语言数据集,以增加1000多种语言; (iii)研究这些语言的评估指标的局限性,并对我们MT模型的输出进行定性分析,突出显示了这些类型模型的几种频繁误差模式。我们希望我们的工作为旨在为当前研究的语言构建MT系统的从业者提供有用的见解,并突出显示可以补充Data-Sparse设置中大量多语言模型的弱点的研究方向。
translated by 谷歌翻译
我们提出了Maestro,这是一种自制的培训方法,可以统一从语音和文本方式中学到的表示形式。从语音信号中进行的自我监督学习旨在学习信号中固有的潜在结构,而从文本尝试捕获词汇信息的文本尝试中学习。从不配对的语音和文本序列中学习对齐表示是一项具有挑战性的任务。先前的工作要么隐含地强制执行从这两种方式中学到的表示形式,要通过多任务和参数共享在潜在空间中对齐,或通过语音综合通过模态转换而明确地进行。前者受到两种方式之间的干扰,而后者则引入了额外的复杂性。在本文中,我们提出了一种新颖的算法Maestro,旨在同时从这两种方式中学习统一的表示,可以转移到各种下游任务,例如自动语音识别(ASR)和语音翻译(ST)。 Maestro通过序列比对,持续时间预测和匹配的嵌入在学习空间中通过对齐的蒙版模型损失来学习统一的表示形式。我们在Voxpopuli多语言ASR上建立了一个新的最先进(SOTA),单词错误率相对相对降低8%(WER),多域Speetstew ASR(相对3.7%)和21种英语多语言ST在Covost 2上2.8 BLEU的改善平均21种语言。
translated by 谷歌翻译
端到端的语音到语音翻译(S2ST)而不依赖中间文本表示是一个快速新兴的研究领域。最近的作品表明,这种直接S2ST系统的性能正在接近常规级联S2ST时,在可比较的数据集中进行了培训。但是,实际上,直接S2ST的性能受到配对S2ST培训数据的可用性。在这项工作中,我们探索了多种方法,用于利用更广泛的无监督和弱监督的语音和文本数据,以改善基于Translatotron 2的直接S2ST的性能2.使用我们最有效的方法,我们的最有效的方法是21号直接S2ST的平均翻译质量与没有其他数据的先前最新的训练相比,CVSS-C语料库上的语言对改善了+13.6 BLEU(OR +113%)。低资源语言的改进更加显着(平均+398%)。我们的比较研究表明,S2ST和语音表示学习的未来研究方向。
translated by 谷歌翻译
Simulating physical network paths (e.g., Internet) is a cornerstone research problem in the emerging sub-field of AI-for-networking. We seek a model that generates end-to-end packet delay values in response to the time-varying load offered by a sender, which is typically a function of the previously output delays. The problem setting is unique, and renders the state-of-the-art text and time-series generative models inapplicable or ineffective. We formulate an ML problem at the intersection of dynamical systems, sequential decision making, and time-series modeling. We propose a novel grey-box approach to network simulation that embeds the semantics of physical network path in a new RNN-style model called RBU, providing the interpretability of standard network simulator tools, the power of neural models, the efficiency of SGD-based techniques for learning, and yielding promising results on synthetic and real-world network traces.
translated by 谷歌翻译
在所有人类语言对之间实现通用翻译是机器翻译的圣杯(MT)研究。虽然最近在大量的多语言MT中的进展是达到这一目标的一步,但它变得明显,即简单地通过在更加平行数据上训练扩展多语言MT系统是不可编译的,因为用于低资源和非英语的标记数据的可用性 - 姓氏对禁止有限。为此,我们展示了一种务实的方法,可以使用监督和自我监督目标的混合来构建涵盖数百种语言的多语种MT模型,具体取决于不同语言对的数据可用性。我们展示这两种训练范例之间的协同作用使模型能够在零资源设置中产生高质量的翻译,甚至超过监控的用于中资和中资和中资质。我们开展广泛的实验,了解多语言监督,域错配和平行和单机数据量的效果,以了解我们自我监督的多语言模型的质量。为了展示方法的可扩展性,我们培训具有200多种语言的模型,并在几个先前研究的语言上展示了对零资源翻译的高性能。我们希望我们的调查结果将成为踏脚石,以便为下一千种语言进行翻译。
translated by 谷歌翻译
自我监督的培训表明预先训练模型的有希望的收益,并促进了对语音识别的下游尖端,如多语言ASR。大多数现有方法采用一个2阶段方案,其中自我监督损失在第一个预先预订阶段进行了优化,并在第二阶段的标准监督的FINETUNING恢复。在本文中,我们提出了一部结束(E2E)联合无监督和监督培训(Just)方法,以将监督的RNN-T损失和自我监督的对比和屏蔽语言建模(MLM)损失结合起来。我们在公共数据集多语言LibrisPeech(MLS)上验证其性能,其中包括8种语言,非常不平衡。在MLS上,我们探索(1)刚从划痕训练,(2)刚从佩戴检查站训练。实验表明,只需始终如一地胜过其他现有的最先进的方法,并通过显着的保证金击败单声道基线,展示了在多语言ASR中处理低资源语言的能力。我们的平均WER所有语言都优于平均单声道基线33.3%,最先进的2级XLSR达到32%。在低资源语言如波兰语,我们的WER不到一半的单机基线,甚至击败了使用外部监管的监督转移学习方法。
translated by 谷歌翻译
在当前的数字化时代,在线支付系统吸引了相当大的兴趣。提高支付系统的效率很重要,因为它对企业的收入有很大影响。网关是每次交易都被路由的付款系统的一个组成部分。在在线支付系统中,付款处理器通过各种配置与这些网关集成,例如定价,方法,风险检查等。这些配置称为终端。每个网关都可以有多个与之相关的终端。通过最佳终端路由付款交易至关重要,以提高付款交易的概率成功。机器学习(ML)和人工智能(AI)技术可用于基于先前的性能和各种支付相关属性准确地预测最佳终端。我们设计了一种由静态和动态模块组成的管道。静态模块使用静态规则和预测网关下降时间的逻辑回归模型进行终端初始过滤。随后,动态模块基于成功率,支付属性,时间滞后等来计算大量的新颖功能以准确地模拟终端行为。使用反馈循环实时使用自适应时间衰减速率算法更新这些功能,并传递给随机林分类器以预测每个终端的成功概率。该管道目前正在razorpay在Razorpay提供数百万次交易中实时生产,并在所有支付方法(信用卡,借记卡,UPI,净银行)的成功率上有4-6 \%。这使得我们的支付系统更加适应表现下降,这已经提高了用户体验,灌输了更多信任商家,并提升了业务的收入。
translated by 谷歌翻译